% Version control information:
%$HeadURL: http://practicas-statgraphics.googlecode.com/svn/trunk/estadisticos/estadisticos.tex $
%$LastChangedDate: 2009-10-27 19:03:11 +0000 (Tue, 27 Oct 2009) $
%$LastChangedRevision: 11 $
%$LastChangedBy: asalber $
%$Id: estadisticos.tex 11 2009-10-27 19:03:11Z asalber $

\chapter{Estadísticos Muestrales}

\section{Fundamentos teóricos}

Hemos visto cómo podemos presentar la información que obtenemos de
la muestra, a través de tablas o bien a través de gráficas. La tabla
de frecuencias contiene toda la información de la muestra pero
resulta difícil sacar conclusiones sobre determinados aspectos de la
distribución con sólo mirarla. Ahora veremos cómo a partir de esos
mismos valores observados de la variable estadística, se calculan
ciertos números que resumen la información muestral. Estos números,
llamados \emph{Estadísticos}, se utilizan para poner de manifiesto
ciertos aspectos de la distribución, tales como la dispersión o
concentración de los datos, la forma de su distribución, etc. Según
sea la característica que pretenden reflejar se pueden clasificar en
Medidas de posición, Medidas de dispersión y Medidas de forma.

\subsection{Medidas de posición}

Son valores que indican cómo se sitúan los datos. Los más
importantes son la Media aritmética, la Mediana y la Moda.

\subsubsection{Media aritmética $ \overline{\mbox{\textit{x}}}$}

Se llama \emph{media aritmética} de una variable estadística $X$, y
se representa por $\overline{x}$ , a la suma de todos los resultados
observados, dividida por el tamaño muestral. Es decir, la media de
la variable estadística $X$, cuya distribución de frecuencias es
$(x_i,n_i)$, viene dada por

\[\overline{x}=\frac{x_1+\ldots+x_1+\ldots+x_k+\ldots+x_k}{n_1+\ldots+n_k}=\frac{x_1n_1+\ldots+x_kn_k}{n}=\frac{1}{n}\sum_{i=1}^{k}x_in_i
\]

La media aritmética sólo tiene sentido en variables cuantitativas.

\subsubsection{Mediana \textit{Me}}
Se llama \emph{mediana} y lo denotamos por $Me$, a aquel valor de la
muestra que, una vez ordenados todos los valores de la misma en
orden creciente, tiene tantos términos inferiores a él como
superiores. En consecuencia, divide la distribución en dos partes
iguales.

La mediana sólo tiene sentido en atributos ordinales y en
variables cuantitativas.

\subsubsection{Moda \textit{Mo}}
La \emph{moda} es el valor de la variable que presenta una mayor
frecuencia en la muestra. Cuando haya más de un valor con frecuencia
máxima diremos que hay más de una moda. En variables continuas o
discretas agrupadas llamaremos clase modal a la que tenga la máxima
frecuencia. Se puede calcular la moda tanto en variables
cuantitativas como cualitativas.

\subsubsection{Cuantiles}
Si el conjunto total de valores observados se divide en $r$ partes
que contengan cada una $\frac{n}{r}$ observaciones, los puntos de
separación de las mismas reciben el nombre genérico de
\emph{cuantiles}.


Según esto la mediana también es un cuantil con $r=2$.
Algunos cuantiles reciben determinados nombres como:
\begin{description}

\item [Cuartiles.] Son los puntos que dividen la distribución en 4
partes iguales y se designan por $C_1,C_2,C_3$. Es claro que
$C_2=Me$.

\item[Deciles.] Son los puntos que dividen la distribución en 10
partes iguales y se designan por $D_1,D_2,\ldots,D_9$.

\item [Percentiles.] Son los puntos que dividen la distribución en
100 partes iguales y se designan por $P_1,P_2,\ldots,P_{99}$.
\end{description}

\subsection{Medidas de dispersión}
Miden la separación existente entre los valores de la muestra. Las
más importantes son el Rango o Recorrido, el Rango Intercuartílico,
la Varianza, la Desviación Típica y el Coeficiente de Variación.
\subsubsection{Rango o Recorrido \textit{Re}}
La medida de dispersión más inmediata es el rango. Llamamos
\emph{recorrido} o \emph{rango} y lo designaremos por \textit{Re} a
la diferencia entre los valores máximo y mínimo que toma la variable
en la muestra. Es decir

    \[Re = max\{x_i, i=1,2,\ldots,n\} - min\{x_i, i=1,2,\ldots,n\}\]


Este estadístico sirve para medir el campo de variación de la
variable, aunque es la medida de dispersión que menos información
proporciona sobre la mayor o menor agrupación de los valores de la
variable alrededor de las medidas de tendencia central. Además tiene
el inconveniente de que se ve muy afectado por los datos atípicos.

\subsubsection{Rango Intercuartílico \textit{RI}}
El \emph{rango intercuartílico} \textit{RI} es la diferencia entre
el tercer y el primer cuartil, y mide, por tanto, el campo de
variación del 50\% de los datos centrales de la distribución. Por
consiguiente
\[ RI=C_3-C_1\]
La ventaja del rango intercuartílico frente al recorrido es que no se ve tan afectado por los datos atípicos.

\subsubsection{Varianza $\textit{s}_\textit{x}^\textrm{2}$}
Llamamos \emph{varianza} de una variable estadística $X$, y la
designaremos por $\textit{s}_\textit{x}^\textrm{2}$, a la media de
los cuadrados de las desviaciones de los valores observados respecto
de la media de la muestra. Así
\[s_x^{2}=\frac{1}{n}\sum_{i=1}^{k}(x_i-\overline{x})^{2}n_i\]

\subsubsection{Desviación Típica $\textit{s}_\textit{x}$}
La raíz cuadrada positiva de la varianza se conoce como
\emph{desviación típica} de la variable $X$, y se representa por $s$
\[s=+\sqrt{s_{x}^{2}}\]

\subsubsection{Coeficiente de Variación de Pearson $\textit{Cv}_\textit{x}$}
Al cociente entre la desviación típica y el valor absoluto de la
media se le conoce como \emph{coeficiente de variación de Pearson} o
simplemente \emph{coeficiente de variación}:
\[ Cv_x=\frac{s_x}{|\overline{x}|}\]
 El coeficiente de variación es adimensional, y por tanto
permite hacer comparaciones entre variables expresadas en distintas
unidades. Cuanto más próximo esté a 0, menor será la dispersión de
la muestra en relación con la media, y más representativa será ésta
última del conjunto de observaciones.

\subsection{Medidas de forma}
Indican la forma que tiene la distribución de valores en la muestra.
Se pueden clasificar en dos grupos: Medidas de \emph{asimetría}
y medidas de \emph{apuntamiento o curtosis}.

\subsubsection{Coeficiente de asimetría de Fisher $\textit{g}_\textit{1}$}
El \emph{coeficiente de asimetría de Fisher}, que se representa por $g_1$, se define como

\[g_1=\frac{\sum_{i=1}^{k}(x_i-\overline{x})^{3}f_i}{s_x^{3}}\]

Dependiendo del valor que tome tendremos:

\begin{itemize}
  \item  $g_1=0$. Distribución simétrica.
  \item $g_1<0$. Distribución asimétrica hacia la izquierda.
  \item $g_1>0$. Distribución asimétrica hacia la derecha.
\end{itemize}

\subsubsection{Coeficiente de apuntamiento o curtosis $\textit{g}_\textit{2}$}
El grado de apuntamiento de las observaciones de la muestra, se
caracteriza por el \emph{coeficiente de apuntamiento o curtosis} y
se representa por $g_2$

\[g_2=\frac{\sum_{i=1}^{k}(x_i-\overline{x})^{4}f_i}{s_x^{4}}-3\]

Dependiendo del valor que tome tendremos:

\begin{itemize}
  \item $g_2=0$. La distribución tiene un apuntamiento igual que el de la distribución normal de la misma
  media y desviación típica. Se dice que es una distribución \emph{mesocúrtica}.
  \item $g_2<0$. La distribución es menos apuntada que la distribución normal de la misma
  media y desviación típica. Se dice que es una distribución \emph{platicúrtica}.
  \item $g_2>0$. La distribución es más apuntada que la distribución normal de la misma
  media y desviación típica. Se dice que es una distribución \emph{leptocúrtica}.
\end{itemize}

Tanto $g_1$ como $g_2$ suelen utilizarse para comprobar si los datos
muestrales provienen de una población no normal. Cuando $g_1$  está
fuera del intervalo [-2,2] se dice que la distribución es demasiado
asimétrica como para que los datos provengan de una población
normal. Del mismo modo, cuando $g_2$ está fuera del intervalo [-2,2]
se dice que la distribución es, o demasiado apuntada, o demasiado
plana, como para que los datos provengan de una población normal.

\subsection{Estadísticos de variables en las que se definen grupos}
Ya sabemos cómo resumir la información contenida en una muestra
utilizando una serie de estadísticos. Pero hasta ahora sólo hemos
estudiado ejemplos con un único carácter objeto de estudio.

En la mayoría de las investigaciones no estudiaremos un único
carácter, sino un conjunto de caracteres, y muchas veces será
conveniente obtener información de un determinado carácter, en
función de los grupos creados por otro de los caracteres estudiados
en la investigación. A estas variables que se utilizan para formar
grupos se les conoce como \emph{variables clasificadoras} o
\emph{discriminantes}.

Por ejemplo, si se realiza un estudio sobre un conjunto de niños
recién nacidos, podemos estudiar su peso. Pero si además sabemos si
la madre de cada niño es fumadora o no, podremos hacer un estudio
del peso de los niños de las madres fumadoras por un lado y los de
las no fumadoras por otro, para ver si existen diferencias entre
ambos grupos.

\clearpage
\newpage


\section{Ejercicios prácticos}

\begin{enumerate}[leftmargin=*]

\item  Se realizó una encuesta a 40 personas de más de 70
años sobre el número de medicamentos distintos que tomaban
habitualmente. El resultado de dicha encuesta fue el siguiente:
\begin{eqnarray*}
&&3-1-2-2-0-1-4-2-3-5-1-3-2-3-1-4-2-4-3-2 \\
&&3-5-0-1-2-0-2-3-0-1-1-5-3-4-2-3-0-1-2-3
\end{eqnarray*}
Se pide:

\begin{enumerate}
\item  Crear la variable \variable{medicamentos} e introducir los datos. Si
ya se tienen los datos, simplemente recuperarlos.

\item  Calcular los estadísticos de tendencia central: media aritmética, mediana y moda e interpretarlos.
\begin{indicacion}{
\begin{enumerate}
\item Seleccionar el menú \menu{Describir->Datos Numéricos->Análisis de Una Variable}.
\item Seleccionar la variable \variable{medicamentos} en el campo \texttt{Datos} del cuadro de diálogo.
\item Hacer click en el botón \boton{Tablas} y activar la casilla \opcion{Resumen Estadístico}.
\item Hacer click con el botón derecho del ratón sobre los resultados obtenidos y seleccionar \opcion{Opciones de Ventana}.
\item Activar las casillas Promedio, Mediana y Moda.
\item Las interpretaciones de estos estadísticos se encuentran en los Fundamentos Teóricos.
\end{enumerate}}
\end{indicacion}

\item Calcular los estadísticos de dispersión: recorrido, rango intercuartílico, varianza, desviación típica
y coeficiente de variación e interpretarlos.
\begin{indicacion}{
\begin{enumerate}
\item Seguir los mismos pasos que en el apartado anterior y activar las casillas Rango, Rango Intercuartílico, Varianza, Desviación Estándar y Coeficiente de Variación.
\item Son estadísticos de dispersión, por lo que cuanto más pequeños son más concentrada es la variable.
 Las interpretaciones de cada uno de ellos se encuentran en los Fundamentos Teóricos.
\end{enumerate}}
\end{indicacion}

\item  Calcular los estadísticos de forma: coeficiente de asimetría y coeficiente de curtosis e
interpretarlos.
\begin{indicacion}{
\begin{enumerate}
\item Seguir los mismos pasos que en los apartados anteriores,
activando las casillas Sesgo y Curtosis.
\item Las interpretaciones de ambos coeficientes se encuentran en los Fundamentos Teóricos.
\end{enumerate}}
\end{indicacion}

\item  Calcular los cuartiles e interpretarlos.
\begin{indicacion}{
\begin{enumerate}
\item Seguir los mismos pasos que en los apartados anteriores activando las
casillas \opcion{Cuartil Inferior} y \opcion{Cuartil Superior}.
\item El cuartil inferior es el valor de la muestra que, una vez
ordenados todos los valores de la misma en orden creciente, tiene
una cuarta parte de términos inferiores a él, mientras que el
cuartil superior es el que en las mismas condiciones tiene tres cuartas
partes de términos inferiores a él.
\end{enumerate}}
\end{indicacion}
\end{enumerate}


\item Para realizar un estudio sobre la estatura de los
estudiantes universitarios seleccionamos, mediante un proceso de
muestreo aleatorio, una muestra de 30 estudiantes, obteniendo los
siguientes resultados (expresados en centímetros):
\begin{center}
179, 173, 181, 170, 158, 174, 172, 166, 194, 185,\\
162, 187, 198, 177, 178, 165, 154, 188, 166, 171,\\
175, 182, 167, 169, 172, 186, 172, 176, 168, 187.
\end{center}
Se pide:

\begin{enumerate}
\item  Crear la variable \variable{estatura} e introducir los datos.

\item  Obtener un resumen de estadísticos en el que se muestren la
media aritmética, mediana, moda, varianza, desviación típica y
coeficiente de variación de Pearson, e interpretarlos.
\begin{indicacion}{
\begin{enumerate}
\item Seguir los mismos pasos que en el ejercicio anterior, activando la
casilla \opcion{Coeficiente de Variación} para obtener el
coeficiente de variación de Pearson.
\item Las interpretaciones de estos estadísticos se encuentran en los Fundamentos Teóricos.
\end{enumerate}}
\end{indicacion}

\item  Calcular el tercer decil e interpretarlo.
\begin{indicacion}{
\begin{enumerate}
\item En la misma ventana de resultados del apartado anterior, hacer click en el botón \boton{Tablas}
y seleccionar \opcion{Percentiles}.
\item Hacer click con el botón derecho del ratón sobre la ventana de los percentiles y
seleccionar \opcion{Opciones de Ventana}.
\item Introducir en cualquiera de los campos para percentiles el percentil 30 que es el correspondiente al tercer decil.
\item El tercer decil es el valor de la muestra que, una vez
ordenados todos los valores de la misma en orden creciente, tiene
tres décimas partes de términos por debajo de él.
\end{enumerate}}
\end{indicacion}

\item  Calcular el percentil 62 e interpretarlo.
\begin{indicacion}{
\begin{enumerate}
\item Seguir los mismos pasos que en el apartado anterior.
\item El percentil 62 es el valor de la muestra que, una vez
ordenados todos los valores de la misma en orden creciente, tiene el
62\% de términos por debajo de él.
\end{enumerate}}
\end{indicacion}
\end{enumerate}

\item  En un hospital se ha tomado nota de la concentración de
anticuerpos de inmunoglobulina M en el suero sanguíneo de personas
sanas y se han obtenido los siguientes resultados. Entre paréntesis
figura el sexo de la persona (H para hombre y M para mujer).
\begin{center}
   \begin{tabular}{lllll}
      (H) $1.071$ & (H) $0.955$ & (H) $0.730$ & (M) $0.908$ & (M) $0.859$  \\
      (H) $0.927$ & (M) $0.962$ & (M) $1.543$ & (H) $1.094$ & (M) $0.847$  \\
      (H) $1.214$ & (M) $1.456$ & (M) $1.516$ & (M) $1.002$ & (M) $0.799$  \\
      (M) $0.881$ & (M) $1.096$ & (M) $0.964$ & (H) $0.973$ & (H) $1.222$  \\
      (H) $0.887$ & (H) $1.022$ & (M) $0.881$ & (M) $1.420$ & (M) $1.205$  \\
   \end{tabular}
\end{center}
Se pide
\begin{enumerate}
\item  Crear las variables \variable{sexo} e \variable{inmunoglobulina} e introducir los datos.
\begin{indicacion}{
En la variable \variable{inmunoglobulina} introducir todos los datos
de concentración de anticuerpos de inmunoglobulina M, tanto de
hombres como de mujeres, y en la variable \variable{sexo} poner H ó
M, según que el dato corresponda a un hombre o a una mujer
respectivamente.}
\end{indicacion}

\item Calcular la media aritmética, mediana, moda, varianza, desviación típica y coeficiente de variación de la concentración de anticuerpos de inmonuglobulina en los hombres.
\begin{indicacion}{
\begin{enumerate}
\item Seleccionar el menú \menu{Describir->Datos Numéricos->Análisis de Una Variable}.
\item Seleccionar la variable \variable{inmunoglobulina} en el campo \texttt{Datos} del cuadro de diálogo,
y escribir el filtro \texttt{sexo=``H''} en el campo
\texttt{Selección} para que sólo se tengan en cuenta en el análisis
los individuos que cumplan dicha condición.
\item Hacer click en el botón \boton{Tablas} y activar la casilla \opcion{Resumen Estadístico}.
\item Hacer click con el botón derecho del ratón sobre los resultados obtenidos y seleccionar \opcion{Opciones de Ventana}.
\item Activar las casillas correspondientes a los estadísticos que se piden.
\end{enumerate}}
\end{indicacion}

\item  Comparar los estadísticos de hombres y mujeres. A la vista de los resultados  ¿en qué población es
más representativa la media, en la de hombres o en la de mujeres?
\begin{indicacion}{
\begin{enumerate}
\item Seleccionar el menú \menu{Comparar->Varias Muestras->Comparación de Varias Muestras}.
\item Seleccionar la opción \opcion{Columnas de Códigos y Datos}.
\item Seleccionar la variable \variable{inmunoglobulina} en el campo \texttt{Datos} del cuadro de diálogo,
y la variable de clasificación \variable{sexo} en el campo
\texttt{Códigos por Nivel}.
\item Hacer click en el botón \boton{Tablas} y activar la casilla \opcion{Resumen Estadístico}.
\item Hacer click con el botón derecho del ratón sobre los resultados obtenidos y
seleccionar \opcion{Opciones de Ventana}.
\item Activar las casillas correspondientes a todos los estadísticos, haciendo click en \opcion{Todos}.
\item La media será más representativa en la población en que sea más
pequeño el coeficiente de variación.
\end{enumerate}}
\end{indicacion}
\end{enumerate}
\end{enumerate}


\section{Problemas}
\begin{enumerate}[leftmargin=*]

\item  El número de lesiones padecidas durante una temporada
por cada jugador de un equipo de fútbol fue el siguiente:
\begin{center}
0 -- 1 -- 2 -- 1 -- 3 -- 0 -- 1 -- 0 -- 1 -- 2 -- 0 -- 1 \\
1 -- 1 -- 2 -- 0 -- 1 -- 3 -- 2 -- 1 -- 2 -- 1 -- 0 -- 1
\end{center}

Se pide:
\begin{enumerate}
  \item Crear la variable \variable{lesiones} e introducir los datos. Si
ya se tienen los datos, simplemente recuperarlos.
  \item Calcular la media aritmética, la mediana, la moda, la varianza y la desviación típica.
  \item Calcular los coeficientes de asimetría y curtosis e interpretar los resultados.
  \item Calcular el cuarto y el octavo decil.
\end{enumerate}



\item  En un estudio de población se tomó una muestra de
27 personas, y se les preguntó por su edad y estado civil,
obteniéndose los siguientes resultados:

\begin{tabular}{|l|c|c|c|c|c|c|c|}
  \hline
  Estado Civil & Casado & Soltero & Soltero & Viudo & Casado
  & Casado & Divorciado\\
  \hline
  Edad & 62 & 31 & 45 & 100 & 39 & 62 & 31
  \\ \hline

\end{tabular}

\begin{tabular}{|l|c|c|c|c|c|c|c|}
  \hline
  Estado Civil & Soltero & Viudo & Casado
  & Soltero & Divorciado & Viudo & Divorciado \\ \hline
  Edad & 21 & 38 & 59 & 62 & 65 & 38 & 59
  \\ \hline

\end{tabular}


\begin{tabular}{|l|c|c|c|c|c|c|c|}
  \hline
  Estado Civil & Casado & Viudo & Casado
  & Divorciado & Divorciado & Viudo & Viudo\\ \hline
  Edad & 21 & 31 & 62 & 59 & 65 & 38 & 59
  \\ \hline

\end{tabular}


\begin{tabular}{|l|c|c|c|c|c|c|}
  \hline
  Estado Civil & Soltero & Viudo & Soltero & Soltero & Soltero & Viudo \\ \hline
  Edad & 31 & 65 & 45 & 100 & 62 & 65 \\ \hline

\end{tabular}

Se pide:
\begin{enumerate}


  \item Crear las variables adecuadas e introducir los datos.

  \item Calcular la media, la desviación típica y el coeficiente de variación
   de la edad según el estado civil.

\end{enumerate}

\end{enumerate}
